深度神经网络在预测质量方面表现出巨大的成功,而可靠且稳健的不确定性估计仍然是一个挑战。预测性不确定性补充模型预测,并实现了下游任务的改进功能,包括嵌入式和移动应用,例如虚拟现实,增强现实,传感器融合和感知。这些应用程序通常需要复杂性的妥协,以获得由于内存非常有限和计算资源而导致的不确定性估计。我们通过使用Axolotl框架构建Monte Carlo辍学(MCDO)模型来解决这个问题;具体而言,我们多样化采样的子网,利用辍学模式,并使用分支技术来提高预测性能,同时保持快速计算。我们在使用CIFAR10 DataSet上进行(1)多级分类任务的实验,(2)更复杂的人体分段任务。我们的结果表明我们的方法通过接近深度集成预测质量和不确定性估算来达到效果,同时仍在实现资源限制的移动平台的推断。
translated by 谷歌翻译
已知现代卷积神经网络(CNNS)在校准上对看不见的输入数据的校准方面是过度自由度。也就是说,它们比他们准确更自信。如果预测的概率用于下游决策,则这是不希望的。在考虑精度时,CNN也令人惊讶地对压缩技术(例如量化)令人惊讶地稳健,这旨在降低计算和内存成本。我们表明,这种稳健性可以通过现代CNN的校准行为来部分解释,并且可以通过过度步骤来改进。这是由于直观的结果:低置信度预测更容易改变后量化,而不太准确。高信任预测将更加准确,但更难以改变。因此,产生后量化精度的最小降低。这提出了神经网络设计中的潜在冲突:过度频率的校准可能导致量化更好的鲁棒性。我们在CIFAR-100和ImageNet数据集上执行将训练后量化的实验应用于各种CNN。
translated by 谷歌翻译
We propose a technique for learning single-view 3D object pose estimation models by utilizing a new source of data -- in-the-wild videos where objects turn. Such videos are prevalent in practice (e.g., cars in roundabouts, airplanes near runways) and easy to collect. We show that classical structure-from-motion algorithms, coupled with the recent advances in instance detection and feature matching, provides surprisingly accurate relative 3D pose estimation on such videos. We propose a multi-stage training scheme that first learns a canonical pose across a collection of videos and then supervises a model for single-view pose estimation. The proposed technique achieves competitive performance with respect to existing state-of-the-art on standard benchmarks for 3D pose estimation, without requiring any pose labels during training. We also contribute an Accidental Turntables Dataset, containing a challenging set of 41,212 images of cars in cluttered backgrounds, motion blur and illumination changes that serves as a benchmark for 3D pose estimation.
translated by 谷歌翻译
Neural transducer is now the most popular end-to-end model for speech recognition, due to its naturally streaming ability. However, it is challenging to adapt it with text-only data. Factorized neural transducer (FNT) model was proposed to mitigate this problem. The improved adaptation ability of FNT on text-only adaptation data came at the cost of lowered accuracy compared to the standard neural transducer model. We propose several methods to improve the performance of the FNT model. They are: adding CTC criterion during training, adding KL divergence loss during adaptation, using a pre-trained language model to seed the vocabulary predictor, and an efficient adaptation approach by interpolating the vocabulary predictor with the n-gram language model. A combination of these approaches results in a relative word-error-rate reduction of 9.48\% from the standard FNT model. Furthermore, n-gram interpolation with the vocabulary predictor improves the adaptation speed hugely with satisfactory adaptation performance.
translated by 谷歌翻译
随着丰富的视觉表示和预训练的语言模型的出现,随着时间的推移,视频字幕持续不断改进。尽管性能有所提高,但视频字幕模型还是容易发生幻觉的。幻觉是指与原始材料分离的高度病理描述的产生。在视频字幕中,有两种幻觉:物体和动作幻觉。我们没有努力学习视频的更好代表,而是在这项工作中研究了幻觉问题的基本来源。我们确定了三个主要因素:(i)从预训练模型中提取的视觉特征不足,(ii)多模式融合过程中源和目标环境的影响不当,以及(iii)训练策略中的暴露偏见。为了减轻这些问题,我们提出了两种强大的解决方案:(a)在提取的视觉特征的基础上引入了在多标签设置中训练的辅助头,以及(b)添加上下文门,在融合过程中动态选择特征。视频字幕的标准评估指标衡量与地面真相标题的相似性,并且不能充分捕获对象和动作相关性。为此,我们提出了一个新的指标Coaha(标题对象和动作幻觉评估),该指标评估了幻觉的程度。我们的方法可以在MSR-Video到文本(MSR-VTT)和Microsoft研究视频描述语料库(MSVD)数据集上实现最先进的性能,尤其是通过大量的苹果酒得分。
translated by 谷歌翻译
最近的研究揭示了NLP数据和模型中的不良偏见。但是,这些努力的重点是西方的社会差异,并且无法直接携带其他地质文化背景。在本文中,我们关注印度背景下的NLP公平。我们首先简要说明印度的社会差异斧头。我们为印度背景下的公平评估建立资源,并利用它们来证明沿着某些轴的预测偏见。然后,我们深入研究了地区和宗教的社会刻板印象,证明了其在Corpora&Models中的普遍性。最后,我们概述了一个整体研究议程,以重新定义印度背景的NLP公平研究,考虑印度社会背景,弥合能力,资源和适应印度文化价值的技术差距。尽管我们在这里专注于“印度”,但可以在其他地理文化背景下进行重新连接化。
translated by 谷歌翻译
预计在现实世界中部署的NLU系统将定期更新或对随着时间的推移积累的新培训示例的基础神经网络进行重新更新。在我们的工作中,我们专注于多语言环境,在该环境中,我们希望在该设置中进一步捕获有关上述模型已经接受过培训的NLU任务的新培训数据的多语言模型。我们表明,在某些条件下,天真地更新多语言模型可能会导致语言子集的性能损失,尽管汇总性能指标显示出改进。我们在属于三个任务系列(令牌级,句子级别和SEQ2SEQ)的四个任务上建立了这种现象,并发现基线远非手头设置的理想选择。然后,我们基于最近进步的参数有效填充,以开发新颖的填充管道,使我们能够共同最大程度地减少灾难性的遗忘,同时鼓励积极的跨语言转移,从而改善不同语言的增长,同时减少这种设置中损失的损失。
translated by 谷歌翻译
固有图像分解(IID)是一个不受限制的问题。因此,传统方法使用手工制作的先验来限制问题。但是,在应对复杂场景时,这些约束受到限制。基于深度学习的方法通过数据隐含地学习了这些约束,但是它们通常会遭受数据集偏见的困扰(由于无法包括所有可能的成像条件)。在本文中,提出了两者的组合。利用语义和不变特征(例如语义和不变特征)以获得语义和物理上合理的反射率转换。这些过渡用于引导具有隐式同质性约束的进行性CNN,以分解反射率和阴影图。进行了一项消融研究,表明拟议的先验和进行性CNN的使用增加了IID的性能。我们提出的数据集和标准现实世界IIW数据集的最新性能都显示了提出的方法的有效性。代码可在https://github.com/morpheus3000/signet上提供
translated by 谷歌翻译
随着图像识别中深度学习模型的快速发展和使用的增加,安全成为其在安全至关重要系统中的部署的主要关注点。由于深度学习模型的准确性和鲁棒性主要归因于训练样本的纯度,因此,深度学习体系结构通常容易受到对抗性攻击的影响。对抗性攻击通常是通过对正常图像的微妙扰动而获得的,正常图像对人类最不可感知,但可能会严重混淆最新的机器学习模型。我们提出了一个名为Apudae的框架,利用DeNoing AutoCoders(DAES)通过以自适应方式使用这些样品来纯化这些样本,从而提高了已攻击目标分类器网络的分类准确性。我们还展示了如何自适应地使用DAE,而不是直接使用它们,而是进一步提高分类精度,并且更强大,可以设计自适应攻击以欺骗它们。我们在MNIST,CIFAR-10,Imagenet数据集上展示了我们的结果,并展示了我们的框架(Apudae)如何在净化对手方面提供可比性和在大多数情况下的基线方法。我们还设计了专门设计的自适应攻击,以攻击我们的净化模型,并展示我们的防御方式如何强大。
translated by 谷歌翻译
深度学习(DL)系统的安全性是一个极为重要的研究领域,因为它们正在部署在多个应用程序中,因为它们不断改善,以解决具有挑战性的任务。尽管有压倒性的承诺,但深度学习系统容易受到制作的对抗性例子的影响,这可能是人眼无法察觉的,但可能会导致模型错误分类。对基于整体技术的对抗性扰动的保护已被证明很容易受到更强大的对手的影响,或者证明缺乏端到端评估。在本文中,我们试图开发一种新的基于整体的解决方案,该解决方案构建具有不同决策边界的防御者模型相对于原始模型。通过(1)通过一种称为拆分和剃须的方法转换输入的分类器的合奏,以及(2)通过一种称为对比度功能的方法限制重要特征,显示出相对于相对于不同的梯度对抗性攻击,这减少了将对抗性示例从原始示例转移到针对同一类的防御者模型的机会。我们使用标准图像分类数据集(即MNIST,CIFAR-10和CIFAR-100)进行了广泛的实验,以实现最新的对抗攻击,以证明基于合奏的防御的鲁棒性。我们还在存在更强大的对手的情况下评估稳健性,该对手同时靶向合奏中的所有模型。已经提供了整体假阳性和误报的结果,以估计提出的方法的总体性能。
translated by 谷歌翻译